大家使用Pandas DataFrame分析不外乎就是使用內建的describe(),如果要其他分析就需要再手動進行,再利用繪圖package視覺化。
今天分享一個好用套件,pandas-profiling
能够使用DataFrame自動生成詳細的數據報告,其中包括Dataset基本資訊、變數型態、欄位警告(常數、相依)、變數分析(統計、分布、極值),比起Describe 要詳細許多。
快速安裝pip install pandas-profiling
以sklearn 的波士頓房價資料為例
載入所需套件
import pandas as pd
import matplotlib.pyplot as plt
import pandas_profiling as pdp
pd.set_option('display.max_columns', 500)
載入資料,並利用pandas_profiling 進行詳細分析
from sklearn.datasets import load_boston
data = load_boston()
df_boston = pd.DataFrame(data = data.data , columns= data.feature_names)
pdp.ProfileReport(df_boston)
也可以將report 檔案匯成html
pfr = pdp.ProfileReport(df_boston)
pfr.to_file('report.html')